A4 Beyond CVaR

通讯作者

Hyejin Ku-加拿大多伦多约克大学数学与统计系‪Hyejin Ku‬ - ‪Google Scholar‬

超越CVaR：利用静态频谱风险度量提升分布式强化学习中的决策能力

管理最坏情况

考虑回报的波动性并应对最坏情况

分布强化学习为将风险敏感性纳入决策过程提供了自然框架

（1）在每个决策步骤使用固定的风险度量通常导致策略过于保守；

（2）所学策略的可解释性及其理论性质仍不明确。

尽管优化静态风险度量可解决这些问题，但其在分布强化学习框架中的应用仅限于简单的静态条件风险价值度量。

风险厌恶策略

条件风险价值、一致性风险度量、凸风险度量以及熵风险价值

在优化问题中使用方差或动态风险度量等约束来限制最坏情况

分布强化学习

估计的是回报分布而非期望值

风险度量如条件风险价值、失真风险度量、熵风险度量或静态Lipschitz风险度量

每个步骤应用固定风险度量会导致所优化的策略既非针对静态也非针对动态风险度量

时间不一致性的问题-不同状态下的动作选择不一定相互协调，可能导致策略相对于智能体的风险偏好而言是次优的。

从不同状态开始寻找最优策略可能会产生不同且不一致的策略

动态风险度量。其在每个时间步评估风险，而不像静态风险度量那样在整个回合上评估。然而，动态风险度量难以解释，限制了其实用性。

优化静态风险度量。寻找在最坏情况下给出最佳可能结果的策略

策略在后续阶段所优化的风险偏好并不明确

优化静态谱风险度量

一种具有收敛保证的新型分布强化学习算法，可优化更广泛的静态谱风险度量类别。

通过利用分布强化学习中的回报分布和静态一致性风险度量的分解，为所学策略提供了清晰的解释。

能够学习符合谱风险度量目标的策略，并在多种设定中优于现有的风险中性和风险敏感分布强化学习模型。

通过利用一致性风险度量的分解和分布强化学习框架内的回报分布，这些随时间演变的风险偏好也可以为更一般的谱风险度量计算

决策者选择初始风险偏好，但该偏好可能随时间推移和新信息的出现而改变

与先前利用条件风险价值分解推导最优策略的工作不同，我们仅利用此分解来解释最优策略的行为，而非用于策略优化。

一致性风险度量的分解无法可靠地用于策略优化，且那些工作中的最优性论断是不准确的。

学习符合谱风险度量目标的策略，在各种风险敏感场景中取得了优于现有方法的性能

性能提升，还增强了可解释性

证明了，通过应用一致性风险度量的分解定理并利用分布强化学习框架中可用的回报分布，我们可以识别最优策略所优化的具体目标。这使得我们能够监控策略的行为和风险敏感性，并在必要时进行调整。

我们的贡献如下：

我们提出一种具有收敛保证的新型分布强化学习算法，可优化静态谱风险度量。谱风险度量表示为不同风险水平下条件风险价值的凸组合，为实践者提供了定义广泛风险谱的灵活性，包括著名的均值-条件风险价值度量。
我们证明，分布强化学习框架中的回报分布使得谱风险度量的时间分解成为可能，从而允许我们识别保持策略最优性的中间风险度量。这些风险度量揭示了智能体随时间演变的风险偏好，并增强了我们算法的可解释性。
通过广泛的评估，我们表明我们的模型能够准确学习符合谱风险度量目标的策略，并在多种设定中优于现有的风险中性和风险敏感分布强化学习模型。

i）我们的基于价值的方法适用于离散动作空间的环境。将我们的算法扩展至行动者-评论者方法，可使我们的方法适用于连续动作空间的环境。

ii）在本工作中，我们使用分位数表示法对回报分布进行参数化。使用其他分布参数化近似方法，或采用为分位数表示法引入的改进技术，可能提升我们风险敏感算法的性能。

iii）更新函数h（即初始状态回报分布的估计）的算法为目标函数提供了一个下界。在第6.2节中，我们通过实验观察到我们的算法收敛到与QR-CVaR相似的策略，而后者具有更强的收敛保证。然而，一个能更强保证收敛到最优函数h的算法，可以加深我们对静态谱风险度量的理解。